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Решение задачи распознавания по нечетким 
портретам классов 


В статье предложен алгоритм формирования нечетких портретов классов образов и алгоритм нечеткого 
вывода для задачи распознавания образов. Формально нечеткие портреты представлены лингвистическими 
переменными. Предложено семантическое правило для определения функций принадлежности терм- 
множеств. В основу построения функций принадлежности положен частотный анализ множества 
прецедентов. Обобщающая способность нечетких портретов зависит от параметров построения функций 
принадлежности. 


Введение 


Анализ данных является неотъемлемой частью при решении любой практической 
задачи. Поэтому при решении задач распознавания образов, синтезированных по конеч- 
ным выборкам прецедентов, всегда необходим предварительный анализ данных. Резуль- 
тат такого анализа определяет путь решения задачи. 

Сформировалось достаточно много различных подходов к проблеме распо- 
знавания образов. Таковыми являются дискриминантный анализ, нейросетевой подход, 
построение деревьев решений, применение нечетких классификаторов и т.п. [1-3]. 
Каждый подход дает свои преимущества и может быть применен с модификациями 
для большинства практических задач. Используя различные подходы, можно получать 
подобные по своей структуре алгоритмы. Комплексный подход при создании класси- 
фикаторов позволит соединить преимущества каждого из выбранных подходов. 

Целью работы является разработка алгоритма распознавания образов, который 
принимает решение о принадлежности предложенного образа классу образов путем 
сравнения его с нечетким портретом этого класса. Такие нечеткие портреты строятся 
на основе предварительного анализа частоты встречаемости признаков и позволяют 
определить степень соответствия предложенного образа каждому из классов. Качество 
полученного алгоритма зависит от параметров функций, определяющих нечеткие пор- 
треты. Необходимо получить значения параметров, обеспечивающих высокую обоб- 
щающую способность таких портретов классов образов. 

Алгоритм является развитием предложенного в [4] подхода. 


Особенности рассматриваемой задачи 
и основная идея алгоритма 


Значительная часть задач распознавания образов опирается на модель образа в 
виде вектора параметров, измеряемых или наблюдаемых. Ниже будет рассмотрена 
такая прикладная задача. 

В этом случае классическая постановка задачи, которой мы будем придержи- 


ваться, выглядит следующим образом. Образы представляются векторами х’еХс №". 
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Задано множество классов образов У = {уп}, 1=1,....Ю и обучающая выборка У как мно- 
жество пар У={(х®,у®), хе Х”,у® ЕР 1 =1,...п}. 

Предполагается, что известный набор признаков в общем случае не всегда 
обеспечивает полную разделимость классов, и для некоторых предъявляемых образов 
возникает неопределенность их отнесения к какому-то из заданных классов. Это ес- 
тественным образом приводит к рассмотрению результата работы алгоритма в виде 


Е А = :=. 
нечеткого множества у(х) = У д, (х)/ъ, ‚ где м, (х) — степень принадлежности образа 
1=1 


х классу у, . Здесь и далее обозначения соответствуют введенным в классической теории 


нечетких множеств [5]. Такое представление позволит формализовать понятие вы- 
сказывания: «насколько сильно похож образ на представителей данного класса образов». 
Получить нечеткое множество как результат задачи распознавания удобно с помощью 
алгоритма нечеткого вывода. 

Отметим особенности задачи, которые могут быть использованы для улучшения 
качества алгоритма. 

Исходные данные не гомогенны. Объединенные в один класс образы могут описы- 
ваться параметрами, подверженными сезонным и технологическим колебаниям. В част- 
ности, в рассматривающейся ниже задаче о распознавании видов топлива и их 
производителей значения параметров образов испытывают колебания в зависимости от 
времени года, смены технологических условий и т.п. Помимо этого данные могут содер- 
жать ошибки, обусловленные человеческим фактором при их внесении в базу данных, 
что влечет необходимость проверки на наличие выбросов в обучающей выборке. 

Основная идея алгоритма распознавания образов состоит в представлении 
исходной информации о классах в виде их нечетких портретов. Такие портреты форми- 
руются как совокупность лингвистических переменных. Каждая лингвистическая пере- 
менная описывает информативный признак и поименована в соответствии с именем 
этого признака. Терм-множества лингвистических переменных строятся в результате 
анализа частотных характеристик каждого из признаков по каждому классу. 

В работе предложен алгоритм нечеткого вывода, с помощью которого принимается 
решение о принадлежности образа одному из классов. В ситуациях, когда рассмат- 
риваемый образ попадает на границы классов, ответ рассматривается в виде нечеткого 
множества степеней соответствия всем рассматриваемым классам с перечнем наиболее 
близких классов образов. Принятие решения осуществляется на основе базы правил 
нечетких продукций, которая строится по нечетким портретам. Настройка базы 
правил выполняется за счет настройки параметров функций принадлежности терм- 
множеств лингвистических переменных. Особенности этой настройки будут рассмот- 
рены ниже и напрямую связаны с методом построения функций принадлежности. 

Рассмотрим процесс формирования нечетких портретов более детально. В каче- 
стве информативных признаков для формирования модели алгоритма берутся признаки 
с низкой попарной корреляцией. В связи с этим данные по каждому показателю рас- 
сматриваются независимо друг от друга. 

Сгруппируем значения элементов обучающей выборки У по принадлежности 
классам образов, как показано в табл. 1, где Р = {Р,...,Р,...Р,} — множество призна- 
ков, У = {\,,...,у,,...У,} — множество классов образов. Определим множество О, , как 


множество значений признака { для класса ]: если у, о жнньхл 


ри(х,,-..х»..х,)=х, и рку, = рихл рн АЙ } то О, = рку,. 
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Таблица 1 
ЗЕ: Р В 
У! В. р, Тя 
У, р; р, т В. 
У, Тр т р : р, , 
Каждому признаку поставим в соответствие лингвистическую переменную 
Г, ={имя(В),Т,И „С, М у,Т, = {(ш, ‚(х)), 1 =1,....К}, Ч; — область определения элементов 


Р,м,(р’х) [О] - функция принадлежности, определяющая степень уверенности, с 
которой образ х относится к классу образов у,. Синтаксическое правило С, порождающее 


названия переменных, в данном случае тривиально, т.к. все термы атомарные, и заклю- 
чается в присвоении функции принадлежности имени класса, который она представляет. 
Семантическое правило М представлено в виде алгоритма формирования функций 
принадлежности и будет подробно рассмотрено дальше. Функции принадлежности 
и; ; можно строить по-разному, и в зависимости от способа построения будет меняться обоб- 
щающая способность, которая определяется коэффициентами @ и Д, описанными ниже. 


Определение. Нечетким портретом 5, называется множество значений лингвисти- 
ческих переменных, соответствующих классу у,: 5, ={и„}1=1...., №. 


В табл. 2 представлена структура лингвистических переменных, знак -> обозначает 
соответствие. 


Таблица 2 

у Е. Г Г, 
а,В а, В а,В 

У: |241 И: Ия 
а,В а,В а,В 

У, Н> 5, Ил Ил И т 
а,В а, В а,В 

У Н>Ь, Ин в: и а иг” 


Метод формирования функций принадлежности 
нечеткого портрета 


Рассмотрим метод построения функций принадлежности. Фактически в этой части 
определяется семантическое правило для получения значений лингвистических пере- 
менных в виде алгоритма, основанного на анализе частоты встречаемости признаков. 

Ранее были определены множества 2. В результате анализа этих множеств стро- 


ятся функции принадлежности /и,. Далее условимся опускать индексы 1, / при описании 


алгоритма, учитывая единообразие в построении всех функций. 

Алгоритм основан на концепции скользящего окна и является расширением 
подхода, используемого при построении гистограмм в статистике [6]. Использование 
гистограмм позволяет осуществлять поиск выбросов. 
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Результатом работы алгоритма будет кусочно-линейная функция //, которая 
соответствует полигону частот в терминах статистики в предельном случае, когда 
ширина скользящего окна равна шагу смещения окна. 

Определим среднее расстояние Й, между точками множества Р по формуле 

_ тах(р)-—ти(рО) 
Ро овы 


‚ где |Р| — мощность множества. Шаг смещения окна зададим 


5${ер 


как 5ер=вй,, а размер скользящего окна как ума =гй,,. Обозначим а = 


ыы илиа 
Коэффициенты @, В,у определяют вид функции принадлежности. 


На рис. 1 представлена схема применения скользящего окна. 


пи (О) шах(О) 


| ЕЕЕЕНИИИИЕНИ | 
п1(О)-“ер | Г 1 | шах(О)+“ер 


Рисунок 1 — Схема применения скользящего окна 


Область определения функции принадлежности //(х) задается как Х =[штО — ${ер, 
тах(р) + 5ер]. В этом множестве выделяются базовые точки, задаваемые шагом 
смещения скользящего окна 5{ер. Вычисляется значение функции принадлежности в 


каждой такой точке. В промежуточных точках полагаем, что значение функции опреде- 
ляется точкой, лежащей на прямой, соединяющей две соседние базовые точки. Окон- 
чательно нормируем сформированную функцию, деля ее на максимальное значение. 
В результате получаем функцию принадлежности /и””” (х) , значения которой принадле- 


жат интервалу [0,1]. 


В 


Отношение & = — определяет вид графика и обобщающую способность нечетких 


портретов. Отметим следующие особенности, влияющие на конечные функции при- 
надлежности нечетких портретов и свойства алгоритма распознавания: 

— при малом числе образов данного класса в обучающей выборке велико число 
смен знаков производной функции (обобщающая способность функций ухудшается, 
объем данных недостаточен); 

— чем меньше коэффициент а е (01|, тем более «жесткими» являются функ- 
ции принадлежности с точки зрения оценки степеней соответствия образа классу; 

—с ростом коэффициента р еГ|1....,5] функции становятся более гладкими, 
уменьшается число смен знаков их производных. 

Настройка коэффициентов @,В проводится по серии экспериментов. В них 
определяются значения, при которых достигается наилучшая различающая способ- 
ность алгоритма распознавания. Найденные значения @, можно считать результа- 


том обучения алгоритма. 
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Алгоритм нечеткого вывода 


Как было сказано ранее, основной идеей предложенного алгоритма является 
сопоставление предложенного образа х с нечеткими портретами классов образов и 
вычисление степени соответствия образа каждому из классов. Будем использовать 
преимущества систем нечеткого вывода и представим процесс принятия решения в 
виде алгоритма нечеткого вывода. 

Для этого будем следовать основной логике алгоритмов нечеткого вывода, кото- 
рые включают в себя следующие этапы: формирование базы правил, фаззификации, 
агрегирования, активации и аккумуляции [7]. 

На диаграмме активностей (рис. 2) поэтапно представлен рассматриваемый 
алгоритм нечеткого вывода. Процедуры активации и аккумуляции, которые выпол- 
няются в классических алгоритмах нечеткого вывода, здесь отсутствуют. 

Результатом процедуры агрегации является дискретное нечеткое множество У. 
В ситуациях, когда существует явный лидер, т.е. класс образов с достаточно большой сте- 
пенью уверенности, и такой класс один, выполняется дефаззификация, и этот класс- 
лидер становится результатом работы алгоритма распознавания образов. 


[х] 


[7] 


Рисунок 2 — ОМГ-диаграмма активностей «Алгоритм нечеткого вывода». 


Рассмотрим детально шаги алгоритма нечеткого вывода. 
Как уже говорилось выше, база правил строится по нечетким портретам. В сис- 
темах нечеткого вывода база правил нечетких продукций представляется набором 


правил, состоящих из нечетких лингвистических высказываний вида: «[, естьу, », 
где [, — наименование лингвистической переменной, а у — ее значение, которому 


соответствует отдельный лингвистический терм из базового терм-множества лингвис- 
тической переменной /.,. 


Запишем правила нечетких продукций через определенные ранее лингвистические 
переменные. 
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ПРАВИЛО «5»: 
ЕСЛИ «[ естьу,» И... И Г есть\ И... И [, естьу, ТО У есть (у / м, ); 


ПРАВИЛО «5»: 
ЕСЛИ «Г, естьу,» И... И Г. естьу,И... И Г, естьу, ТО ТУ есть (,/д,,); 


ПРАВИЛО «5,» : 

ЕСЛИ «< Д естьу, » И... И Г естьъ,И...И Г, естьъ, ТО У есть (ъ,/ и, ). 

Таким образом, для каждого нечеткого портрета 5, строится правило нечеткого 
вывода. 

Пусть на вход алгоритма приходит х. Этап фаззификации заключается в вы- 
числении значений 4, (х)= д,(ри(хХ)). 

Особенность этапа агрегирования заключается в выборе операции «И». 

В качестве такой операции в системах нечеткого вывода используют различные 
функции, например, операции минимума или умножения. 

В данном случае была использована п-местная операция «И», которая задается 
следующей функцией: 

(аьа»›,....а,)=105((а +1(а.+1....: (а, +1))/п ‚а; Е [91] = Г(а) [9]. 

На рис. 3 а) показана поверхность принятия решения для такой двуместной 

операции /. 


з. * з. 


а) «И»: 105((а, +1(а, +1))/4 6) «И»: а, а, 
Рисунок 3 — Поверхность принятия решения для двуместной операции «И» 


Такая операция позволяет принимать более качественные решения при малых 
значениях функций принадлежности. При операции «И» типа умножения, поверхность 
принятия решения которой представлена на рис. 3 6), в аналогичных ситуациях воз- 
никает опасность недооценки малых значений нечетких характеристик. 

Дефаззификация выполняется по формуле у = аго тах{у}. 
И 


У 


Оценка качества алгоритма и выбор коэффициентов а,В 


Для оценки качества и стабильности алгоритма использовалась процедура 

скользящего контроля. В [8] предложены функционалы, которые характеризуют 
> 7й 

обобщающую способность алгоритма д по конечной совокупности объектов Х” — 
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функционал полного скользящего контроля О, и функционал среднего отклонения 


частоты ошибок на контроле от частоты ошибок на обучении О: 


О(их"= Хи, хи) 


О. (шХ") "Ухо, -киоь хи. 


где (Х',Х"),п =... № - всевозможные разбиения выборки Х” на обучающую и кон- 


трольную, 2 =/+А;у(м,Х“) — частота ошибок алгоритма д на обучающей выборке Х”". 

Результат процедуры скользящего контроля отличается в зависимости от спо- 
соба формирования указанного множества разбиений. В [9] экспериментально доказано, 
что для выбора наилучшего классификатора А-кратный скользящий контроль со зна- 
чением А, равным 10, лучше, чем более дорогостоящая оценка с одним отделяемым 
объектом. К-кратным скользящим контролем называется вариант скользящего кон- 
троля, в котором множество разбиений образуется А-непересекающимися контрольными 
выборками. Если используются все разбиения с контрольной выборкой единичной 
длины, то такая процедура скользящего контроля называется оценкой с одним отде- 
ляемым объектом. 

По этой причине в данной работе для тестовой задачи использовался десяти- 
кратный скользящий контроль. 

На практике скользящий контроль используют и для оптимизации небольшого 
числа параметров, определяющих структуру алгоритма. Для предложенного в работе 
алгоритма такими параметрами являются коэффициенты @,В. Анализ функционалов 


качества О., О, позволяет определить &, В, обеспечивающие хорошую разделяющую 
способность. 


Решение практической задачи 


Предложенный алгоритм был апробирован на реальной задаче распознавания 
производителей топлива и их видов. Образ определяется набором из пяти измеря- 
емых показателей, таких как октановое число, суммарные ароматические соединения, 
ароматические бензолы, олефины и метил-трет-бутиловый эфир (МТБЭ). Число классов 
равно шести и границы классов частично пересекаются. 

Для каждого класса образов строился нечеткий портрет. Для различных & Е [0.05.1], 
В = [1,3] были получены нечеткие портреты. Для оценки качества алгоритма исполь- 
зовалась процедура скользящего контроля. Наилучший результат получен для а = 0,15, 


В =7. Ошибка распознавания не превышала 7%. 


Выводы 


В работе введено понятие нечеткого портрета и предложен алгоритм распознавания 
образов на основе сопоставления рассматриваемого образа с нечеткими портретами 
классов образов. Параметры нечеткого портрета настраиваются подбором специальных 
коэффициентов @, В, определяющих общий вид функций принадлежности, входящих в 
нечеткий портрет, и их обобщающую способность. Найденные экспериментально пара- 
метры @, В обеспечивают более высокое качество распознавания по сравнению с осталь- 


ными значениями. 
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Принятие решения в задаче распознавания образов осуществляется алгоритмом 
нечеткого вывода, база правил нечетких продукций которого строится автоматически — 
в результате анализа обучающей выборки. Предложен метод построения функций 
принадлежности нечетких портретов. 

Для контроля качества полученного алгоритма использована процедура скользя- 
щего контроля. Методом скользящего контроля были оценены качество и обобщающая 
способность полученного алгоритма. Алгоритм применен для решения практической 
задачи распознавания различных видов топлива. 
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В.А. Козловський, О.Ю. Максимова 

Розвязання задач! розшзнавання за нечгкими портретами класв 

В статт! розглянуто алгоритм формування нечтких портретв клас1в образ1в та алгоритм нечткого 
висновку для задач! розшзнавання образ1в. Формально неч!тк! портрети представлено л1нгв1стичними 
змнними. Запропоновано семантичне правило для визначення функщй приналежност! терм-множин. 
Основою побудови функщЙ приналежност! е частотний аналз множин прецедент. Здатнсть нечтких 
портретйв до узагальнення залежить в1д параметрав побудови функщй приналежност:. 


Г.А. КооузКи, А. Ги. Макятоуа 

Оес1$10п оЁ Рабеги Весори@оп Ргоет ууйВ Ки77у РоггаН$ о? С1а$$е$ 

ш Фе отуеп УогК Фе а|еог ит о сгеайпе Влтху ропгай$ ап Ра7ху шЕегепсе 15 засоезе Юг ращег гесоэт1оп 
ргоет. ЕогтаПу Ра7ху ройгай$ аге гергезегеа ПКе Ппоилзйс уапаез. ТБеге 15 зетапас пе Юг сгеайп? 
тетбег$Ь1р бпсйоп$ о# {епи$-5е1. ТВе Базе оЁ тешбег$Мр РапсНоп$ сгеания 1$ Недиепсу апа[у$1$ оЁ $61 
ргеседет. ТБе аБИИу ю сепега|таНоп оЁ Ёа2ту ройтгайз 15 4ерепае4 оп тешбег$р Рапсйоп$ сгеайп? 
рагатееге. 


Статья поступила в редакцию 19.07.2010. 
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